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Верхня та нижня оцінки помилок роботи 
узагальнених КМ класифікаторів 


Пропонується підхід обчислення верхніх оцінок імовірності розпізнавання, що дає можливість використовувати 
їх для більш широкого класу моделей. Оцінки стосуються визначення стійкості покриття об'єктів 
класифікуючими алгоритмами на основі розподілу відстаней між об'єктами. 


Вступ 


На сьогоднішній день методи оцінки ймовірності правильного розпізнавання 
базуються на алгоритмах ковзаючого контролю (сго85 уапдайоп) (1). Однак такі алго- 
ритми ковзаючого контролю, як виключення по одному та ряд інших, вимагають ве- 
ликої кількості обчислень 1 комбінаторних перегрупувань вибірки. Тому потрібно 
розробити підходи щодо побудови верхніх оцінок для значно меншої кількості ком- 
бінаторних перегрупувань. Це можливо зробити тому, що навчальні дані практично 
завжди містять надлишок інформації, який проявляється в її частковому дублюванні. 
З точки зору перенавчання побудова верхніх оцінок означає, що перед алгоритмом 
класифікації поставлено найбільш складну задачу (подано найбільш складну вибірку), 
яка включає в себе довільні більш прості. Тобто верхні оцінки ймовірності правиль- 
ного розпізнавання моделюють класифікацію найбільш незручних об'єктів навчальної 
вибірки. Якщо ймовірність того, що знайдуться більш несприятливі об'єкти на конт- 
рольній вибірці є малою, то доцільно говорити про те, що доповнення до цієї ймовір- 
ності визначатиме надійність оцінок. Поряд з тим, що будуються верхні оцінки для 
всієї вибірки або для сукупності підвибірок, також оцінюється зверху ймовірнісна стій- 
кість покриття кожного об'єкта зокрема. Таким чином отримується більш точна та 
повна оцінка зверху для ймовірності правильного розпізнавання. 


Важливі задачі теорії машинного навчання 


В сучасній теорії машинного навчання існують дві серйозні проблеми: отриман- 
ня точних верхніх оцінок імовірності такого негативного явища, як перенавчання, та 
способів боротьби з ним. На даний момент найбільш точні з відомих оцінок значно 
завищені. Експериментально вдалося встановити основні причини завищення оцінок. 
У порядку зменшення впливу вони є наступними: 

- нехтування ефектом розшарування або локалізації сімейства алгоритмів. Дана 
проблема обумовлюється тим, що залежно від виду задачі використовується не все 
сімейство алгоритмів, а лише певна його частина. Коефіцієнт завищеності знаходиться 
в межах від декількох десятків до сотень тисяч; 

-. нехтування схожістю алгоритмів. Коефіцієнт завищеності становить для цього 
фактора від декількох сотень до десятків тисяч. Цей фактор завжди присутній і менш 
залежний від виду задачі, ніж перший; 
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-. експоненційна апроксимація «хвоста» гіпергеометричного розподілу. В цьому ви- 
падку коефіцієнт завищеності може складати декілька десятків; 

- верхня оцінка профілю різноманітності представляється одним скалярним коефі- 
цієнтом різноманітності. Коефщцієнт завищеності часто близько одиниці, однак у деяких 
випадках може досягати декількох десятків. 

Причина ефекту перенавчання обумовлюється тим, що використовуються алго- 
ритми з мінімальним числом помилок на навчальній вибірці, тобто відбувається од- 
нобічне налаштування цих алгоритмів. Перенавчання буде тим більшим, чим більша 
композиція алгоритмів використовується для класифікації, якщо ці алгоритми беру- 
ться з розподілу випадково і незалежно. У випадку залежності алгоритмів (в реальній 
ситуації вони, як правило, такими 1 є) перенавчання зменшиться. Отже, при виборі 
навіть одного з двох алгоритмів може виникнути перенавчання. Розшарування алго- 
ритмів за числом помилок та збільшення їхньої подібності зменшують імовірність 
перенавчання. Розглянемо для прикладу дуплет «вибірка-алгоритм». Кожний алго- 
ритм покриває певну частину об'єктів навчальної вибірки. Якщо використовувати 
внутрішні критерії (2) (наприклад, у випадку метричних класифікаторів), то можна 
оцінити стійкість цього покриття і звузити число покритих об'єктів згідно із заданим 
рівнем стійкості. Таким чином, для того щоб покрити більшу кількість об'єктів, по- 
трібно застосувати більшу кількість алгоритмів. Ці алгоритми мають бути схожими 1 
мати різний рівень помилок. Однак, якщо використовуються тестові дані, до яких 
композиція алгоритмів неадаптована, то помилка класифікації може досить помітно 
відрізнятися від мінімальної, отриманої на навчальних даних. 


Побудова оцінок імовірнісної стійкості покриття 
об'єктів алгоритмами типу КМ для одиночних 
випробувань 


Якість роботи класифікаторів, що будуються на основі рангового голосування 
та з використанням розділювальних гіперплощин (В моделей |3) прийнято характе- 
ризувати через поняття відступу (тагяаїп), що представляє відстань об'єкта від розді- 
лювальної гіперплощини. Чим більший відступ, тим кращим вважається класифікатор. 
Однак якщо всі об'єкти або переважна їх більшість мають приблизно однаковий від- 
ступ і групуються один біля одного, то в цьому випадку різко падає їх інформативність. 
Це означає, що замість всіх об'єктів можна залишити один або декілька, що викорис- 
товуються для навчання. Такий підхід породжує одну з головних причин, що обу- 
мовлюють ефект перенавчання. Однобічне налаштування алгоритму на основі близької 
за суттю навчальної інформації призводить до того, що на контрольній вибірці він 
може часто помилятись, навіть якщо не помилявся на навчальній вибірці. Дійсно, ймо- 
вірність того, що в умовах навчальної вибірки зустрінеться така ж ситуація, є близькою 
до нуля. 

Тому для навчання прийнято використовувати несхожі і «важкі» для алгоритму 
об'єкти з малими значеннями відступу. Ця ідея використана, зокрема, у методі опор- 
них векторів (З5иррогі Месіог Масітпе) або методі зваженого голосування. Застосуємо 
узагальнений підхід для характеристики класифікаторів на основі поняття відступу. 
Результатом роботи метричних класифікаторів є ранжовані дані (посортовані за сту- 
пенем подібності до тестового об'єкти бази даних). Для таких класифікаторів поняття 
відступу представляється наступним чином. Вводиться еквівалентна до класичного 
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відступу характеристика, яка для даного об'єкта може бути представлена як відносна 
відстань між його відстанями від тестового об'єкта та від усередненого об'єкта бази 
даних або останнього об'єкта з однорідної (стратегічної) |4| послідовності «своїх» 
об'єктів. Передбачається, що хоча б частина «своїх» об'єктів розташовується на по- 
чатку списку можливих претендентів. Таким чином, гарантується коректність даного 
означення. 

Для більш точного означення даної характеристики потрібно ввести поняття 
розподілу відстаней між об'єктами. Оскільки значення відстаней може бути довіль- 
ним, то процедура непараметричного оцінювання розподілу неусіченими ядерними 
функціями буде коректною. 

Нехай непараметрично оцінена густина розподілу відстаней між об'єктами, за- 
даних векторами х та у: р(х), х -» а(Х,у). Згідно з нерівністю Чебишева | 31, ймовір- 


ність того, що знайдеться відстань, яка перевищить деяке порогове значення відстаней 
2 


0, дорівнює Ї родах « з . 
іхед 

Розглянемо випадок рівності математичного сподівання та моди розподілу р(х). 
Верхня межа одномодального розподілу з модою и «0 за допомогою нерівності Гау- 
са |6) представляється у вигляді: 

4 
НІЙРОНЄ ИНА ой (1) 

дет 'зо'ч(ш-р): 


9 зн дЗ 0 пер 
Нехай ш- й, 0 іт ес. Тодіпоріг 9-Лт-Лос,а А ---. Отже, нерівність Гау- 
с 
са для порогу 0 може бути представлена у вигляді: 


2 
Ї роках с ме ; 
АРІ 

Таким чином, згідно з нерівністю Гауса для одномодальних розподілів з мо- 

дою, що дорівнює математичному сподіванню, оцінка є в 2,25 разів кращою за ту, яка 

отримується за допомогою нерівності Чебишева. Це максимально хороша оцінка за 

умови, що невідомий конкретний вид розподілу, а відомі лише певні його властивості. 

Необхідною і достатньою умовою рівності моди математичному сподіванню є симет- 

ричність одномодального розподілу. Однак у загальному випадку реальний закон розпо- 

ділу не є симетричним. При цьому можливі ліва або права асиметрії функції густини 
розподілу ймовірностей (ФГРИ). 


(2) 


Побудова оцінок імовірнісної стійкості покриття 
об'єктів алгоритмами типу КММ для певних класів 
розподілів відстаней між об'єктами 


Розділимо ФГРИ на дві частини, а саме: частину, що знаходиться справа та зліва 
від максимуму. Якщо права частина ФГРИ більша за ліву, то вважається, що це права 
асиметрія, а якщо навпаки - то ліва (рис. І, 2). Розглянемо оцінки за допомогою нерів- 
ності Гауса для обох випадків. У випадку правої асиметрії застосуємо наступний 
прийом. Зробимо розподіл симетричним за лівою частиною, тобто ліву частину зали- 
шаємо незмінною та відображаємо її симетрично відносно максимуму замість вихідної 
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правої частини. Нехай деяка точка х, належить лівій частині розподілу. Тоді функція 
розподілу ймовірностей (ФРЙ) Р(Х « Хо) для симетричного випадку буде завжди біль- 
шою від вихідного значення у кожній точці лівої частини розподілу. Відзначимо, що 
нас цікавлять перші об'єкти у списку можливих претендентів, що відповідають лівій 
частині розподілу. Тоді ФРЙ буде верхньою оцінкою для помилки розпізнавання. 
Проаналізуємо отриманий результат. Попередньо відзначимо, що для кращого 
розуміння прийому, а також спрощеної інтерпретації результатів немає необхідності 
у нормуванні ФГРЙ до одиничної площі. Фактичне зменшення площі під кривою 
ФГРЙ означає, що результати розпізнавання і прийняття рішення впливають не на 
всі об'єкти, а лише на їх частину, що відповідає реальній ситуації. До того ж інтерес 
представляють відхилення відстаней вліво від математичного сподівання при вико- 
ристанні КМ класифікаторів з невеликими значеннями Х. Оскільки оцінка дисперсії 
ФГРЙ для побудови оцінки Гауса проводилась за лівою частиною, то очевидно, що 
ця оцінка у випадку симетричної ФГРИ буде меншою за вихідну, що робить її більш 
точною. До того ж симетрія дозволяє зробити оцінку Гауса максимально точною зЗгід- 
но з нерівністю (2), а все разом дозволяє суттєво покращити загальну верхню оцінку. 


р(х) 


хо Но и Хо и йод 


Х 
Рисунок 1 - Права асиметрія ФГРИЙ Рисунок 2 - Ліва асиметрія ФГРЙ 


Розглянемо ФГРИ у випадку лівої асиметрії. При цьому єдино можливим є лише 
симетричне відображення лівої частини у праву, оскільки лише тоді можлива ко- 
ректна верхня оцінка. Тепер дисперсія симетричної ФГРИЙ буде більшою, ніж вихідної, а 
єдиною перевагою такого перетворення буде симетричність щойно отриманого закону 
розподілу. 

У даному випадку також немає необхідності у нормуванні ФГРИ. Збільшення 
площі під кривою означає, що включені додаткові об'єкти, які не приймають участі 
у розпізнаванні. Це погіршує оцінку Гауса, оскільки збільшується значення оціненої 
дисперсії. Рішення про те, яку оцінку використовувати - з перетворенням симетрії 
або по вихідному розподілу - необхідно приймати, маючи значення математичного 
сподівання, моди та дисперсії обох розподілів. 

Проаналізуємо зв'язок оцінки Гауса зі значенням ФРЙ Р(Х « Хо). Права частина 


ФГРИ не представляє інтересу, тому якщо замість оцінки Гауса взяти ФРИ, то це бу- 
де оцінкою зверху стосовно самої оцінки. При цьому не мають значення ані вид аси- 
метрії, ані сама асиметрія в законі розподілу взагалі. Тобто верхня оцінка значеннями 
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ФРИ щодо до оцінки Гауса стосується як симетричних, так і асиметричних законів 
розподілу. Таким чином, завищеність оцінки Гауса щодо значень ФРЙ компенсується 
лише у випадку правої асиметрії. У випадку лівої асиметрії ступінь компенсації зале- 
жить від співвідношення між значенням дисперсії та різниці | й - і, |. 


Якщо ФГРЙ не має чітко вираженої структури (існування максимуму, симетрія), 
тоді можна скористатися непараметричним оцінюванням, в результаті якого отримуєть- 
ся неперервна ФГРИЙ. Цю функцію можна інтегрувати та диференціювати. З іншого 
боку, як показано в |7|, при збільшенні розміру чужого класу та незмінному розмірі 
свого зменшується ймовірність правильного розпізнавання. Тому потрібно по мож- 
ливості забезпечувати рівність розмірів класів, щоб не було перекосу в пріоритетах. 
Якщо ж цього не вдасться зробити, то при обчисленні слід враховувати ймовірність 
появи об'єктів того чи іншого класу. 


Оскільки нормальна ФГРИ характеризується мінімальною помилкою класифі- 
2 
С 


кації для даного порогу 8 |8| 1 не перевищує у випадку одномодальної симет- 


0? 
ричної ФГРИ або ФГРИ з правою асиметрією, то двостороння нерівність для даної 
помилки розпізнавання є може бути записана у вигляді: 


4с? 
9077 


оза- С) «єх« 0) 


дешгсб. 

Проаналізуємо можливу загальну форму потенційно отримуваних ФГРИ від- 
станей між об'єктами. Всі розподіли матимуть максимуми, оскільки функція ФГРИЙ 
існує на інтервалі (0,0), а густина в околі 0 та для великих відстаней не може бути 
значною, тому що такі події малоймовірні. Права асиметрія є набагато більш імовір- 
ною, оскільки розподіл відстаней обмежений з лівого боку нулем, а з правого боку 
він не має строгих обмежень. 


Оцінки ймовірнісної стійкості покриття об'єктів 
алгоритмами типу КМ в умовах двох класів, 
що мають задані розміри 


Розглянемо поширену задачу класифікації в умовах двох класів. Позначимо 
розміри класів як 5, та 5,. Тоді, якщо ймовірність заміщення об'єкта з класу розмі- 
ром 5, у межах довірчого інтервалу дорівнює є,, то Ймовірність незаміщення об'єктів із 
цього класу об'єктами з класу розміром 5, дорівнює (1- є,)" за умови незалежності 
об'єктів |7). Для іншого класу при відповідних змінах у позначеннях ця ймовірність 
дорівнюватиме (1 - є, )". Якщо тепер ввести деякий віртуальний клас і вважати, що 


заміщення якогось об'єкта цього класу об'єктами із згаданих двох класів є вірогід- 
ною подією, то можна записати наступне рівняння: 


Ка- є» н-є,)ч)-і, (4) 
звідки множник пропорційності у знаходиться тривіально. 

Часом зустрічаються ситуації, коли відстані між об'єктами дорівнюють 0. При 
цьому непараметричний розподіл одного з класів може мати максимум у точці, що 
відповідає нульовій відстані. Нехай густини розподілів у нульовій точці дорівнюють 
р, (0). та р, (0). Оцінка співвідношення між імовірностями може бути задана у вигляді 
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Верхня та нижня оцінки помилок роботи узагальнених КМ класифікаторів 2тТ 


р (0)? або в РОГ 


Р. (0)? рь(б)" 
ФГРИ, оскільки вони пов'язані між собою операцією диференціювання. Співвідношення 


. При цьому потрібно зробити граничний перехід від ФРЙ до 


т Й о Па Рі с ) або в загальному й у (а Рі (у ) можна використати 
ре(0) | р.(0)? рз(0)" | ри (0)? 
для побудови класифікатора виду 
ш Р.Х » У і Ра9) зі 
ре (0)" р:(0)" 
й чи ; (5) 
ш РОГ «и» ш 23 «у» 
ру (ву ру (бу 
де значення т РОГ - 0 або іп рі - 0) не впливають на результати класифікації 
ре (0)! ри(0)" 


і рішення може бути прийняте на користь довільного класу. У випадку непарамет- 
ричного оцінювання ймовірність такого значення практично дорівнює 0. 


Висновки 


В роботі побудовані та досліджені оцінки ймовірності правильної класифікації 
для класифікаторів, що використовують як міру подібності функцію відстані. Резуль- 
тати оцінювання проводились на основі функції розподілу відстаней між об'єктами. 
При цьому розглянуті різні часткові випадку функції розподілу за формою. Побудо- 
вані двосторонні верхні оцінки у випадку одиночних випробувань та для заданих 
розмірів двох класів. Запропонований метод класифікації на основі співвідношення 
густин розподілу ймовірностей у нульовій та довільній точках. 
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В.А. Таянов 

Верхняя и нижняя оценки ошибок работь обобщінньїх КХХ классификаторов 

Предлагаєтся подход вьгтисления верхних оценок вероятности правильного распознавания, что даєт 
возможность использовать их для более широкого класса моделей. Оценки касаются определения 
устойчивости покрьтия обьектов классифицирующими алгоритмами на оснований распределения 
расстояний между обьектами. 


Стаття надійшла до редакції 02.04.2009. 
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